Windows10家庭版安装docker(含Hyper

您所在的位置:网站首页 hyper v 安卓 Windows10家庭版安装docker(含Hyper

Windows10家庭版安装docker(含Hyper

2022-12-03 11:13| 来源: 网络整理| 查看: 265

目录1、时序差分预测1)与动态规划方法的比较2)与蒙特卡罗方法的比较3)时序差分预测伪代码2、Sarsa算法:在线策略的时序差分方法3、Q-learning算法:离线策略的时序差分方法4、Q-learning解决寻宝问题蒙特卡罗方法可以在不知道环境特性的时候,通过与环境互动来估计状态(或状态-动作)的价值函数,但该方法也有一定的缺陷。首先,由于环境的动态特性,蒙特卡罗每次寻找的路径都可能不一样。其次,当状态空间比较大时,蒙特卡罗方法非常耗时,效率低,比如要走很多步才能到达终止状态。在所有的强化学习思想中



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3